RL的核心概念是agent跟environment之間的互動過程。具體來說,environment會提供一個state給agent當作input,agent在接收到這個state之後會產生一個action作為output傳送給environment,environment根據這個action回傳一個reward給agent,告訴agent這個action是好還是壞(不一定是binary的reward,也有可能是數值權重),RL的目標是通過這樣的互動過程,找到一個function使得total reward最大化。
這邊再舉一個比較可惡的例子,如果讀者們有玩過槍戰類遊戲(CS)或是MOBA game (LOL),你會發現有些玩家用狙擊槍總是彈無虛發(槍戰類的外掛也有可能是跟電腦視覺有關),又或是我的QWER永遠都空招(這裡排除個人技術問題哈哈)對手走位跟鬼一樣,大招每次都能命中我,這類的「外掛」很有可能就是用RL來開發的😡(請大家當個善良的玩家,不要去研發什麼奇怪的外掛破壞遊戲體驗🙏)。
1. Q-Learning
2. Deep Q-Network(DQN)
今天是七夕,很開心牛郎跟織女終於相見歡,也㊗️有伴的讀者們在往後與伴侶相愛相殺的日子中,一起進步、一起成長,沒有伴的讀者們也沒關係,我們主打一個寧缺勿濫,不要為了交往而交往,希望有情人必需要終成眷屬。
要是問我感情問題,一律一字訣:「」
【機器學習2021】概述增強式學習 (Reinforcement Learning, RL) (一) – 增強式學習跟機器學習一樣都是三個步驟